Model Selection

Document Visual Question Answering

# Document Visual Question Answering

Mlcd Vit Bigg Patch14 448

MLCD-ViT-bigG is an advanced Vision Transformer model enhanced with 2D Rotary Position Encoding (RoPE2D), excelling in document understanding and visual question answering tasks.

Text Recognition

Pixtral 12b Quantized.w8a8

INT8 quantized version based on mgoin/pixtral-12b, supports vision-text multimodal tasks with optimized inference efficiency

Transformers English

Qwen2.5 VL 3B Instruct Quantized.w8a8

Quantized version of Qwen/Qwen2.5-VL-3B-Instruct, supporting visual-text input and text output, with weights quantized to INT8 and activations quantized to INT8.

Transformers English

Florence2 EntityExtraction

Florence-2 DocVQA is a document visual question answering model fine-tuned based on the Microsoft Florence-2-large model, specifically designed for handling question-answering tasks in document images.

Transformers English

Udop Large 512 300k

UDOP is a universal document processing model that unifies vision, text, and layout, based on the T5 architecture, suitable for document AI tasks.

UDOP is a universal document processing model that unifies vision, text, and layout, based on the T5 architecture, suitable for tasks such as document image classification, parsing, and visual question answering.

Testdocumentquestionanswering

A document visual question answering model based on the LayoutLMv2 architecture, fine-tuned for DocVQA tasks

Layoutlmv3 Finetuned Docvqa

Document question answering model fine-tuned based on LayoutLMv3-base, suitable for document visual question answering tasks

Donut Base Finetuned Docvqa

A document Q&A model based on the Donut architecture, capable of extracting text information from images and answering questions

Layoutlmv2 Base Uncased Finetuned Docvqa

A document visual question answering model based on the LayoutLMv2 architecture, fine-tuned specifically for document understanding tasks

Layoutlmv2 Base Uncased Finetuned Docvqa

A document visual question answering model based on the LayoutLMv2 architecture, specifically fine-tuned for document understanding tasks

Pix2struct Docvqa Base

Pix2Struct is an image encoder-text decoder model trained on image-text pairs, supporting various tasks including image captioning and visual question answering.

Transformers Supports Multiple Languages

Pix2struct Docvqa Large

Pix2Struct is a vision-language model based on an image encoder-text decoder architecture, specifically fine-tuned for document visual question answering tasks

Transformers Supports Multiple Languages

Layoutlmv2 Base Uncased Finetuned Docvqa V2

This model is a fine-tuned version of microsoft/layoutlmv2-base-uncased for document visual question answering tasks, focusing on processing text and layout information in document images.

Layoutlm Invoices

A document QA model fine-tuned based on the LayoutLM architecture, specifically designed for processing structured documents like invoices

Transformers English

Donut Base Finetuned Docvqa

Donut is an OCR-free document understanding Transformer model, fine-tuned on the DocVQA dataset, capable of directly extracting and comprehending text information from images.

Layoutlmv2 Large Uncased Finetuned Vi Infovqa

A document visual question answering model fine-tuned based on microsoft/layoutlmv2-large-uncased, suitable for Vietnamese information extraction tasks

Layoutlmv2 Large Uncased Finetuned Infovqa

Document understanding model based on the LayoutLMv2 architecture, fine-tuned for InfoVQA tasks

Question Answering System

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase